最近,深度加固学习(RL)在机器人操作应用中表现出了一些令人印象深刻的成功。但是,由于样本效率和安全性问题,现实世界中的培训机器人是不平凡的。提出了SIM到现实的转移来解决上述问题,但引入了一个名为“现实差距”的新问题。在这项工作中,我们通过使用单个摄像头的输入来解决上述问题,为基于视觉的组装任务引入SIM模型学习框架,并在模拟环境中进行培训。我们提出了一种基于循环一致的生成对抗网络(CycleGAN)和力量控制转移方法来弥合现实差距的域适应方法。我们证明,在模拟环境中训练有训练的拟议框架可以成功地转移到真实的孔洞设置中。
translated by 谷歌翻译
越来越多的交通部门的问题是事故,交通流量不良和污染。智能运输系统使用外部基础架构(其)可以解决这些问题。据我们所知,不存在对现有解决方案的系统审查。为了填补这一知识缺口,本文概述了现有的使用外部基础架构。此外,本文发现目前没有充分的回答的研究问题。出于这个原因,我们对文件进行了文献综述,它自2009年以来介绍了其解决方案。我们根据他的技术水平分类结果并分析了它们的性质。因此,我们使其有所可比性,并突出了过去的发展以及目前的趋势。根据提及的方法,我们分析了346多篇论文,其中包括40个试验床项目。总之,目前其可以实时提供有关交通情况下的个体的高准确信息。然而,在其使用现代传感器,即插即用机制以及高度数据的分散方式中,进一步研究其应重点关注对流量的更可靠的流量感知。通过解决这些主题,智能运输系统的开发处于校正方向,以实现全面推出。
translated by 谷歌翻译
There are many artificial intelligence algorithms for autonomous driving, but directly installing these algorithms on vehicles is unrealistic and expensive. At the same time, many of these algorithms need an environment to train and optimize. Simulation is a valuable and meaningful solution with training and testing functions, and it can say that simulation is a critical link in the autonomous driving world. There are also many different applications or systems of simulation from companies or academies such as SVL and Carla. These simulators flaunt that they have the closest real-world simulation, but their environment objects, such as pedestrians and other vehicles around the agent-vehicle, are already fixed programmed. They can only move along the pre-setting trajectory, or random numbers determine their movements. What is the situation when all environmental objects are also installed by Artificial Intelligence, or their behaviors are like real people or natural reactions of other drivers? This problem is a blind spot for most of the simulation applications, or these applications cannot be easy to solve this problem. The Neurorobotics Platform from the TUM team of Prof. Alois Knoll has the idea about "Engines" and "Transceiver Functions" to solve the multi-agents problem. This report will start with a little research on the Neurorobotics Platform and analyze the potential and possibility of developing a new simulator to achieve the true real-world simulation goal. Then based on the NRP-Core Platform, this initial development aims to construct an initial demo experiment. The consist of this report starts with the basic knowledge of NRP-Core and its installation, then focus on the explanation of the necessary components for a simulation experiment, at last, about the details of constructions for the autonomous driving system, which is integrated object detection and autonomous control.
translated by 谷歌翻译
Federated learning enables cooperative training among massively distributed clients by sharing their learned local model parameters. However, with increasing model size, deploying federated learning requires a large communication bandwidth, which limits its deployment in wireless networks. To address this bottleneck, we introduce a residual-based federated learning framework (ResFed), where residuals rather than model parameters are transmitted in communication networks for training. In particular, we integrate two pairs of shared predictors for the model prediction in both server-to-client and client-to-server communication. By employing a common prediction rule, both locally and globally updated models are always fully recoverable in clients and the server. We highlight that the residuals only indicate the quasi-update of a model in a single inter-round, and hence contain more dense information and have a lower entropy than the model, comparing to model weights and gradients. Based on this property, we further conduct lossy compression of the residuals by sparsification and quantization and encode them for efficient communication. The experimental evaluation shows that our ResFed needs remarkably less communication costs and achieves better accuracy by leveraging less sensitive residuals, compared to standard federated learning. For instance, to train a 4.08 MB CNN model on CIFAR-10 with 10 clients under non-independent and identically distributed (Non-IID) setting, our approach achieves a compression ratio over 700X in each communication round with minimum impact on the accuracy. To reach an accuracy of 70%, it saves around 99% of the total communication volume from 587.61 Mb to 6.79 Mb in up-streaming and to 4.61 Mb in down-streaming on average for all clients.
translated by 谷歌翻译
元强化学习(META-RL)是一种有前途的方法,使代理商能够快速学习新任务。但是,由于仅由奖励提供的任务信息不足,大多数元元素算法在多任任务方案中显示出较差的概括。语言条件的元RL通过匹配语言指令和代理的行为来改善概括。因此,从对称性学习是人类学习的一种重要形式,因此将对称性和语言指令结合到元素rl可以帮助提高算法的概括和学习效率。因此,我们提出了一种双MDP元提升学习方法,该方法可以通过对称数据和语言指令有效地学习新任务。我们在多个具有挑战性的操作任务中评估了我们的方法,实验结果表明我们的方法可以大大提高元强化学习的概括和效率。
translated by 谷歌翻译
最先进的对象探测器在许多应用中都有效。通常,基于准确度指标(例如平均平均精度)对其性能进行评估。在本文中,我们考虑了在自动驾驶(AD)的背景下3D对象探测器的安全性。特别是,我们提出了对AD中对象探测器的基本安全要求,并将其提出为规范。在配方过程中,我们发现图像上使用预计的2D边界框的抽象3D对象和鸟类视图平面可以为拟议的安全要求提供必要且充分的条件。然后,我们利用分析并根据地面相交的措施以及预测和地面真理之间的距离比率得出定性和定量安全指标。最后,为了持续改进,我们制定了安全损失,可用于优化对象探测器以提高安全分数。我们对MMDetection3D库和Nuscenes数据集的公共模型进行了实验,证明了我们的考虑和建议的有效性。
translated by 谷歌翻译
尽管最近的强化学习最近在学习复杂的行为方面非常成功,但它需要大量的数据才能学习任务,更不用说能够适应新任务了。引起这种限制的根本原因之一在于试验学习范式的强化学习范式的性质,在这种情况下,代理商与任务进行交流并进行学习仅依靠奖励信号,这是隐含的,这是隐含的和不足以学习的一项任务很好。相反,人类主要通过语义表征或自然语言指示来学习新技能。但是,将语言指示用于机器人运动控制来提高适应性,这是一个新出现的主题和挑战。在本文中,我们提出了一种元素算法,该算法通过多个操纵任务中的语言说明来解决学习技能的挑战。一方面,我们的算法利用语言指令来塑造其对任务的解释,另一方面,它仍然学会了在试用过程中解决任务。我们在机器人操纵基准(Meta-World)上评估了算法,并且在培训和测试成功率方面显着优于最先进的方法。该代码可在\ url {https://tumi6robot.wixsite.com/million}中获得。
translated by 谷歌翻译
对象检测神经网络模型需要在高度动态和安全至关重要的环境(例如自动驾驶或机器人技术)中可靠地执行。因此,在意外硬件故障(例如软误差)下验证检测的鲁棒性至关重要,这些故障可能会影响系统感知模块。基于平均精度的标准指标会在对象级别而不是图像级别产生模型漏洞估计。正如我们在本文中所显示的那样,这并不能提供直观或代表性的指标,表明是由基础记忆中的位翻转引起的无声数据损坏的安全性影响,而是导致典型断层诱导危害的过度估计或低估。为了关注与安全相关的实时应用程序,我们提出了一个新的度量IVMOD(图像漏洞测量的对象检测),以基于错误的图像检测(FPS)或假阴性为基于图像的对象检测,以量化漏洞(FNS)对象,结合严重性分析。对几个代表性对象检测模型的评估表明,即使是单个位翻转也可能导致严重的无声数据腐败事件,具有潜在的关键安全性,例如,(大于)生成的100 fps或最多可产生。 90%的真实阳性(TPS)在图像中丢失。此外,在单个卡住的情况下,可能会影响整个图像序列,从而导致暂时持续的幽灵检测,这些检测可能被误认为是实际对象(覆盖了大约83%的图像)。此外,场景中的实际物体被持续遗漏(最多约有64%的TPS)。我们的工作建立了对此类关键工作负载与硬件故障的安全相关脆弱性的详细理解。
translated by 谷歌翻译
我们介绍了一个新颖的联合学习框架FedD3,该框架减少了整体沟通量,并开放了联合学习的概念,从而在网络受限的环境中进行了更多的应用程序场景。它通过利用本地数据集蒸馏而不是传统的学习方法(i)大大减少沟通量,并(ii)将转移限制为一击通信,而不是迭代的多路交流来实现这一目标。 FedD3允许连接的客户独立提炼本地数据集,然后汇总那些去中心化的蒸馏数据集(通常以几个无法识别的图像,通常小于模型小于模型),而不是像其他联合学习方法共享模型更新,而是允许连接的客户独立提炼本地数据集。在整个网络上仅一次形成最终模型。我们的实验结果表明,FedD3在所需的沟通量方面显着优于其他联合学习框架,同时,根据使用情况或目标数据集,它为能够在准确性和沟通成本之间的权衡平衡。例如,要在具有10个客户的非IID CIFAR-10数据集上训练Alexnet模型,FedD3可以通过相似的通信量增加准确性超过71%,或者节省98%的通信量,同时达到相同的准确性与其他联合学习方法相比。
translated by 谷歌翻译
这项工作旨在通过使用路边激光射击环境的3D感知来应对自动驾驶的挑战。我们设计了一个3D对象检测模型,该模型可以实时检测路边激光雷达的交通参与者。我们的模型使用现有的3D检测器作为基线并提高其准确性。为了证明我们提出的模块的有效性,我们在三个不同的车辆和基础设施数据集上训练和评估模型。为了显示我们探测器的域适应能力,我们在来自中国的基础架构数据集上训练它,并在德国记录的其他数据集上进行转移学习。我们为检测器中每个模块进行几套实验和消融研究,这些实验表明我们的模型的表现优于基线,而推理速度为45 Hz(22 ms)。我们对基于激光雷达的3D探测器做出了重大贡献,可用于智能城市应用程序,以提供连接和自动化的车辆具有深远的视野。连接到路边传感器的车辆可以获取有关拐角处其他车辆的信息,以改善其道路和操纵计划并提高道路交通安全性。
translated by 谷歌翻译